智能论文笔记

Why do tree-based models still outperform deep learning on tabular data?

Léo Grinsztajn , Edouard Oyallon , Gaël Varoquaux

分类：机器学习 | 人工智能 | (统计)机器学习

2022-07-18

尽管深度学习已经在文本和图像数据集上取得了巨大进展，但其对表格数据的优势尚不清楚。我们在大量数据集和高参数组合中为标准和新型深度学习方法以及基于树的模型（例如Xgboost和随机森林）提供了广泛的基准。我们从具有表格数据的清晰特征的各个域以及针对拟合模型和找到良好的超参数的基准测试方法来定义了一组45个数据集。结果表明，即使没有考虑其较高的速度，基于树的模型即使在中型数据（$ \ sim $ 10K样本）上仍然是最先进的。为了理解这一差距，我们对基于树模型和神经网络（NNS）的不同感应偏见进行了实证研究。这导致了一系列挑战，这些挑战应指导研究人员旨在构建表格特定的NNS：1。对非信息功能保持鲁棒，2。保持数据的方向，并3.能够轻松学习不规则的功能。为了刺激对表格体系结构的研究，我们为基准的标准基准和原始数据贡献了：20 000计算小时的每个学习者的每个学习者搜索每个学习者。

translated by 谷歌翻译

Metrics reloaded: Pitfalls and recommendations for image analysis validation

Lena Maier-Hein , Annika Reinke , Evangelia Christodoulou , Ben Glocker , Patrick Godau , Fabian Isensee , Jens Kleesiek , Michal Kozubek , Mauricio Reyes , Michael A. Riegler

分类：计算机视觉

2022-06-03

自动生物医学图像分析的领域至关重要地取决于算法验证的可靠和有意义的性能指标。但是，当前的度量使用通常是不明智的，并且不能反映基本的域名。在这里，我们提出了一个全面的框架，该框架指导研究人员以问题意识的方式选择绩效指标。具体而言，我们专注于生物医学图像分析问题，这些问题可以解释为图像，对象或像素级别的分类任务。该框架首先编译域兴趣 - 目标结构 - ，数据集和算法与输出问题相关的属性的属性与问题指纹相关，同时还将其映射到适当的问题类别，即图像级分类，语义分段，实例，实例细分或对象检测。然后，它指导用户选择和应用一组适当的验证指标的过程，同时使他们意识到与个人选择相关的潜在陷阱。在本文中，我们描述了指标重新加载推荐框架的当前状态，目的是从图像分析社区获得建设性的反馈。当前版本是在由60多个图像分析专家的国际联盟中开发的，将在社区驱动的优化之后公开作为用户友好的工具包提供。

translated by 谷歌翻译

What's a good imputation to predict with missing values?

Marine Le Morvan , Julie Josse , Erwan Scornet , Gaël Varoquaux

分类： (统计)机器学习 | 人工智能 | 机器学习

2021-06-01

如何在缺少值的数据上学习一个很好的预测仪？大多数努力都专注于首先抵御耐受和第二学习完成数据以预测结果。然而，这种普遍的实践没有理论基础。在这里，我们显示，对于几乎所有估算的功能，具有强大的学习者的赋予归零过程是贝叶斯最佳。此结果适用于所有缺失值机制，与需要缺失随机设置的经典统计结果相比，以在概率模型中使用归属。此外，它意味着良好的预测不需要完美的条件估算。事实上，我们表明，在完美避阻的数据上，最好的回归函数通常是不连续的，这使得很难学习。制作代替估算以便离开回归功能不变只是将问题转移到学习不连续的避难所。相反，我们建议联合学会归纳和回归更容易。我们提出了这种过程，适应Neumiss，一种神经网络，无论缺失值模式如何，捕获观察到的和未观察的变量的条件链接。实验证实，通过Neumiss的联合归因和回归优于我们的实验中的各个步骤程序，其中有限数量的样品。

translated by 谷歌翻译

Common Limitations of Image Processing Metrics: A Picture Story

Annika Reinke , Minu D. Tizabi , Carole H. Sudre , Matthias Eisenmann , Tim Rädsch , Michael Baumgartner , Laura Acion , Michela Antonelli , Tal Arbel , Spyridon Bakas

分类：计算机视觉

2021-04-12

尽管自动图像分析的重要性不断增加，但最近的元研究揭示了有关算法验证的主要缺陷。性能指标对于使用的自动算法的有意义，客观和透明的性能评估和验证尤其是关键，但是在使用特定的指标进行给定的图像分析任务时，对实际陷阱的关注相对较少。这些通常与（1）无视固有的度量属性，例如在存在类不平衡或小目标结构的情况下的行为，（2）无视固有的数据集属性，例如测试的非独立性案例和（3）无视指标应反映的实际生物医学领域的兴趣。该动态文档的目的是说明图像分析领域通常应用的性能指标的重要局限性。在这种情况下，它重点介绍了可以用作图像级分类，语义分割，实例分割或对象检测任务的生物医学图像分析问题。当前版本是基于由全球60多家机构的国际图像分析专家进行的关于指标的Delphi流程。

translated by 谷歌翻译

API design for machine learning software: experiences from the scikit-learn project

Lars Buitinck , Gilles Louppe , Mathieu Blondel , Fabian Pedregosa , Andreas Mueller , Olivier Grisel , Vlad Niculae , Peter Prettenhofer , Alexandre Gramfort , Jaques Grobler

分类：

2013-09-01

scikit-learn is an increasingly popular machine learning library. Written in Python, it is designed to be simple and efficient, accessible to non-experts, and reusable in various contexts. In this paper, we present and discuss our design choices for the application programming interface (API) of the project. In particular, we describe the simple and elegant interface shared by all learning and processing units in the library and then discuss its advantages in terms of composition and reusability. The paper also comments on implementation details specific to the Python ecosystem and analyzes obstacles faced by users and developers of the library.

translated by 谷歌翻译

Dirichlet-Survival Process: Scalable Inference of Topic-Dependent Diffusion Networks

Gaël Poux-Médard , Julien Velcin , Sabine Loudcher

分类：机器学习

2022-12-12

Information spread on networks can be efficiently modeled by considering three features: documents' content, time of publication relative to other publications, and position of the spreader in the network. Most previous works model up to two of those jointly, or rely on heavily parametric approaches. Building on recent Dirichlet-Point processes literature, we introduce the Houston (Hidden Online User-Topic Network) model, that jointly considers all those features in a non-parametric unsupervised framework. It infers dynamic topic-dependent underlying diffusion networks in a continuous-time setting along with said topics. It is unsupervised; it considers an unlabeled stream of triplets shaped as \textit{(time of publication, information's content, spreading entity)} as input data. Online inference is conducted using a sequential Monte-Carlo algorithm that scales linearly with the size of the dataset. Our approach yields consequent improvements over existing baselines on both cluster recovery and subnetworks inference tasks.

translated by 谷歌翻译

Multivariate Powered Dirichlet Hawkes Process

Gaël Poux-Médard , Julien Velcin , Sabine Loudcher

分类：机器学习

2022-12-12

The publication time of a document carries a relevant information about its semantic content. The Dirichlet-Hawkes process has been proposed to jointly model textual information and publication dynamics. This approach has been used with success in several recent works, and extended to tackle specific challenging problems --typically for short texts or entangled publication dynamics. However, the prior in its current form does not allow for complex publication dynamics. In particular, inferred topics are independent from each other --a publication about finance is assumed to have no influence on publications about politics, for instance. In this work, we develop the Multivariate Powered Dirichlet-Hawkes Process (MPDHP), that alleviates this assumption. Publications about various topics can now influence each other. We detail and overcome the technical challenges that arise from considering interacting topics. We conduct a systematic evaluation of MPDHP on a range of synthetic datasets to define its application domain and limitations. Finally, we develop a use case of the MPDHP on Reddit data. At the end of this article, the interested reader will know how and when to use MPDHP, and when not to.

translated by 谷歌翻译

Accelerating hypersonic reentry simulations using deep learning-based hybridization (with guarantees)

Paul Novello , Gaël Poëtte , David Lugato , Simon Peluchon , Pietro Marco Congedo

分类： (统计)机器学习 | 机器学习

2022-09-27

在本文中，我们对数值模拟的加速感兴趣。我们专注于高超音速行星再入问题，该问题涉及耦合流体动力学和化学反应。模拟化学反应需要大部分计算时间，但另一方面，无法避免获得准确的预测。我们面临成本效率和准确性之间的权衡：模拟代码必须足够有效地在操作环境中使用，但必须足够准确，以忠实地预测现象。为了解决这个权衡，我们设计了一个混合模拟代码，将传统的流体动态求解器与近似化学反应的神经网络耦合。当在大数据上下文中应用以及它们源于其矩阵矢量结构的效率时，我们依靠它们的力量来实现重要的加速因子（$ \ tims 10 $至$ \ times 18.6 $）。本文旨在解释我们如何在实践中设计这种具有成本效益的混合模拟代码。最重要的是，我们描述了确保准确性保证的方法论，使我们能够超越传统的替代建模，并将这些代码用作参考。

translated by 谷歌翻译

Interactions in Information Spread

Gaël Poux-Médard

分类：机器学习

2022-09-16

自5000年前写作的发展以来，人类生成的数据以不断增长的速度产生。旨在简化信息检索的经典档案方法。如今，归档不够了。每天生成的数据量超出了人类的理解，并呼吁新的信息检索策略。更相关的方法在于理解数据流中传达的总体思想。为了发现这种一般趋势，需要对基本数据生成机制的精确理解。在解决这个问题的丰富文献中，信息互动的问题几乎尚未开发。首先，我们研究了这种相互作用的频率。在随机块建模中取得的最新进展的基础上，我们探索了几个社交网络中互动的作用。我们发现在这些数据集中相互作用很少。然后，我们想知道互动如何随着时间而发展。较早的数据作品不应对别有用心的数据生成机制产生永恒的影响。我们使用动态网络推理进步对此进行建模。我们得出结论，互动是简短的。最后，我们设计了一个框架，该框架将基于Dirichlet-Hawkes过程的稀有和简短互动建模。我们认为，这种新的模型适合简短而稀疏的交互建模。我们在Reddit上进行了大规模应用，发现交互在此数据集中起着较小的作用。从更广泛的角度来看，我们的工作导致了一系列高度灵活的模型，并重新思考了机器学习的核心概念。因此，我们在现实世界的应用以及对机器学习的技术贡献方面都开辟了一系列新颖的观点。

translated by 谷歌翻译

Properties of Reddit News Topical Interactions

Gaël Poux-Médard , Julien Velcin , Sabine Loudcher

分类：机器学习

2022-09-16

大多数信息传播模型在线依赖于以下假设：信息彼此独立传播。但是，一些作品指出了研究相互作用在现实世界过程中的作用的必要性，并强调了这样做的可能困难：相互作用稀疏和简短。作为答案，最近的进步开发了模型来说明潜在出版物动态的相互作用。在本文中，我们建议扩展和应用一个这样的模型，以确定Reddit的新闻头条之间的互动是否在其基本出版机制中起重要作用。在对2019年的100,000个新闻标题进行了深入的案例研究之后，我们检索了有关互动的最新结论，并得出结论，它们在该数据集中扮演了较小的角色。

translated by 谷歌翻译